MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering

https://gyazo.com/51294e3560f51ee9d6d93c80b996f856

CVPR22

タスク: KB-VQA

質問画像に含まれていない知識を要する質問に回答するタスク

例えば, 以下のVQAでは, 外部知識=kawasakiを使わないと回答できない

https://gyazo.com/0f22297ecc21d3a34675b83d95be40db

新規性

知識グラフの構築は行わない

scene graphを作るのではなく, 画像由来のHead Entity (領域画像)と, 言語由来のTail Entity (後述)について, (entity, relation, entity)のtripletを用いて学習

triplet (entity, relation, entity)

Head Entity

Faster-RCNNで抽出した領域画像と質問文をLXMERTにブチこみ, 画像特徴量を得る

この画像特徴量と質問文のrelevence affinity matrix(スコア行列)を計算し, 親和性の高い領域画像の画像特徴量をHead Entityとする

Tail Entity

学習時は学習可能パラメタとしてQAのキャプションから学習

推論時は知識グラフ (知識DB)からの補完問題として解く

Tail Entity自体がVQAのanswerとなる

relation

LXMERTのCLSトークンをそのままrelationとして用いる

これにより, Head Entity(領域画像)とTail Entity(言語)の関係を表現

定性的結果

https://gyazo.com/917c50449e90bc8b0d052a01bb888bad